首页> 外文OA文献 >A Proposed Architecture for Continuous Web Monitoring Through Online Crawling of Blogs
【2h】

A Proposed Architecture for Continuous Web Monitoring Through Online Crawling of Blogs

机译:通过在线进行连续Web监控的建议体系结构   抓取博客

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。
获取外文期刊封面目录资料

摘要

Getting informed of what is registered in the Web space on time, can greatlyhelp the psychologists, marketers and political analysts to familiarize,analyse, make decision and act correctly based on the society`s differentneeds. The great volume of information in the Web space hinders us tocontinuously online investigate the whole space of the Web. Focusing on theconsidered blogs limits our working domain and makes the online crawling in theWeb space possible. In this article, an architecture is offered whichcontinuously online crawls the related blogs, using focused crawler, andinvestigates and analyses the obtained data. The online fetching is done basedon the latest announcements of the ping server machines. A weighted graph isformed based on targeting the important key phrases, so that a focused crawlercan do the fetching of the complete texts of the related Web pages, based onthe weighted graph.
机译:及时了解网络空间中已注册的内容,可以极大地帮助心理学家,市场营销人员和政治分析人员根据社会的不同需求进行熟悉,分析,做出决定并采取正确的行动。 Web空间中的大量信息阻碍了我们继续在线调查Web的整个空间。专注于所考虑的博客限制了我们的工作范围,并使得在Web空间中进行在线爬网成为可能。在本文中,提供了一种体系结构,该体系结构使用集中的搜寻器连续地对相关博客进行网上爬取,并对所获得的数据进行调查和分析。联机获取是根据ping服务器计算机的最新公告完成的。基于目标重要关键词形成一个加权图,以便专注的爬虫可以基于加权图来获取相关网页的完整文本。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号